У нас есть данные о 3000 объявлениях по сдаче квартир в Санкт-Петербурге и Ленинградской области.
Перед тем как провести разведывательный анализ данных мы проведем их очистку от технических ошибок и приведем к удобному формату:
1. В данных об этажах имеются лишние символы, мы их удалим
2. Уберем единицы измерения из данных о минимальном сроке аренды
3. Удалим те объявления, в которых общая площадь меньше, чем сумма жилой площади и площади кухни
4. Переведем цену от руб/мес к тыс.руб./мес.
5. Для удобства работы избавимся от транслита и приведем слова, написанные транслитом, к кириллице.
6. Также заменим пропуски в данных на “Нет данных”
После удаления наблюдений с техническими ошибками в нашем датасете осталось 2435 наблюдений.
Далее построим таблицы со статистиками для номинальных и числовых переменных.
Затем при подсчете всех статистик мы исключали пропущенные значения
Номинальные переменные:
1. Дата
2. Регион
3. Район
4. Адрес
5. Метро
6. Сделка с агентом или без
7. Тип здания
8. Наличие лифта
9. Наличие мебели
10. Тип ремонта
11. Балкон.
Количество комнат мы сделали ординальной переменной. Сделать числовой нельзя, потому что есть квартиры студии - в которых количество комнат строго не определено(с одной стороны комната 1, а с другой стороны это студия). При этом это также не номинальная переменная, потому что мы можем сравнить студию, однокомнатную квартиру и тд по количеству комнат(студия<1комнатная<двухкомнатная).
Далее мы построим таблицы частот встречаемости различных наблюдений для каждой номинальной переменной
| Region | Количество наблюдений |
|---|---|
| город Санкт-Петербург | 2339 |
| Ленинградская область | 96 |
Большинство квартир из объявлений расположены в Петербурге. Так происходит, потому что в городе живет гораздо больше людей, чем в области.
Как видно, большая часть квартир распологается в городских районах, в то время как в различных районах ЛО расположена лишь небольшая часть квартир. Причина таже - в городе просто больше людей и квартир.
Много квартир расположено рядом со станциями метро Приморская и Комендантский проспект. Это можно объяснить тем, что рядом с этими станциями метро много относительно новых, многоэтажных зданий, следовательно плотность недвижимости там больше.
Также можно заметить, что в этом списке есть несуществующие станции метро: Репино, Павловск и тд. Это все железнодорожные станции. Мы не будем удалять эти наблюдения как ошибочные, а лишь оставим примечания, что содержатся наблюдения, в которых вместо станции метро указана железнодорожная станция.
Большая часть квартир расположена в домах относительно современного типа: кирпичные, кирпично-монолитные, панельные и тд. Также в наблюдениях присутствуют квартиры в домах старого жилового фонда, “сталинках” и тд., но их доля невелика.
| Lift | Количество наблюдений |
|---|---|
| Есть | 1422 |
| Нет | 1013 |
Более чем в половине домов присутствуют лифты, но в ~40% домов они отсутствуют. Это может быть связано с тем, что в выборке прсутствует множество квартир либо из домов малой этажности, либо из старых домов, в которых лифтов нет.
Самые популярные квартиры - однокомнатные. Следующие по популярности двухкомнатные. Студии не часто встречаются в объявлениях. Возможно, что наша выборка смещена(то есть в ней просто мало квартир-студий), либо люди, продающие студии, отмечают свои квартиры как 1-комнатные.
В большинстве наблюдений нет данных о наличие мебели в квартире. Однако во многих объявлениях указано, что квартира оснащена современной мебелью. Лишь в нескольких десятках объявлениях указано, что мебель старая.
| Bath | Количество наблюдений |
|---|---|
| Нет данных | 1367 |
| Отдельная | 704 |
| Совмещенная | 313 |
| Душ | 30 |
| Поперечная | 13 |
| Продольная | 8 |
Как и с данными о мебели - в большинстве объявлений не указан тип ванной комнаты. В большой части квартир указана отдельная ванная и примерно в 300 наблюдениях сказано о совмещенном сан.узле и ванной комнате. В незначительном количестве объявлений указано положение ванны - продольная или поперечная.
| Refurbished | Количество наблюдений |
|---|---|
| Нет данных | 1007 |
| Евро стандарт | 685 |
| Произведен | 583 |
| Не требуется | 151 |
| Требуется | 9 |
Около 1000 наблюдений не имеет данных о ремонте в квартире. Также большая часть сообщает о выполненном ремонте или отсутствии неоходимости его выполнения. Лишь в 9 наблюдениях сказано о необходимости ремонта. Это может быть связано с тем, что люди не хотят отпугнуть арендатора необходимостью ремонта.
Как и в предыдущих случаях, большинство наблюдений не содержат данных о наличие балкона. При этом следующими по частоте встречаемости являются вартиры с балконами и лоджиями. Лишь несколько десятков объявлений сообщают о наличии нескольких балконов/лоджий. Еще меньше квартир с террасами/эркерами, т.к. они нетипичны для большинства домов в Петербурге и ЛО.
| No_agents | Количество наблюдений |
|---|---|
| С агентом | 2127 |
| Без агента | 308 |
Большая часть объявлений сообщают о сдаче через посредника. Это может быть обусловленно тем, что люди либо хотят обезопасить себя, привлекая квалифицированную сторону, либо не хотят тратить свое время и силы на сдачу квартир.
Числовые переменные:
| Среднее | Медиана | Мода | Квартиль1 | Квартиль3 | Станд.отклон. | Размах | Минимум | Максимум | Куртозис | Ассиметрия | |
|---|---|---|---|---|---|---|---|---|---|---|---|
| Цена | 43.50 | 30.0 | 20.0 | 22.0 | 49.5 | 43.300 | 600.000 | 0.016 | 600.0 | 40.50 | 4.860 |
| Дист. до метро, м | 1405.00 | 770.0 | 50.0 | 290.0 | 1498.0 | 2670.000 | 44100.000 | 0.000 | 44100.0 | 69.50 | 6.820 |
| Мин. срок аренды | 10.50 | 11.0 | 11.0 | 11.0 | 11.0 | 3.420 | 30.000 | 1.000 | 31.0 | 19.90 | 1.750 |
| Общ. площ. | 71.20 | 50.0 | 40.0 | 40.0 | 70.0 | 466.000 | 22984.000 | 16.000 | 23000.0 | 2402.00 | 48.800 |
| Жил. площ. | 34.10 | 29.0 | 18.0 | 18.0 | 40.0 | 22.600 | 249.000 | 2.000 | 251.0 | 15.90 | 2.770 |
| Площ. кухн. | 12.10 | 10.0 | 10.0 | 8.0 | 14.0 | 7.560 | 79.000 | 1.000 | 80.0 | 20.60 | 3.390 |
| Кол-во этажей в доме | 6.58 | 5.0 | 3.0 | 3.0 | 9.0 | 4.850 | 25.000 | 1.000 | 26.0 | 4.57 | 1.360 |
| Номер этажа | 11.80 | 10.0 | 5.0 | 6.0 | 16.0 | 6.580 | 29.000 | 1.000 | 30.0 | 2.44 | 0.721 |
| Широта | 59.90 | 59.9 | 59.9 | 59.9 | 60.0 | 0.066 | 0.526 | 59.600 | 60.1 | 2.52 | -0.129 |
| Долгота | 30.30 | 30.3 | 30.3 | 30.3 | 30.4 | 0.079 | 0.570 | 30.100 | 30.7 | 3.14 | 0.117 |
| Год постройки дома | 2000.00 | 2010.0 | 2015.0 | 2000.0 | 2015.0 | 26.600 | 185.000 | 1832.000 | 2017.0 | 17.50 | -3.330 |
С помощью данной таблицы попытаемся обнаружить ошибочные наблюдения. Если имеется слишком большое стандартное отклонение, большой куртозис и максимальное(минимальное) значение сильно отличается от 3(1) квартиля, то мы будем искать в данных ошибку.
Начнем с максимальных цен на квартиры. Рассмотрим 4 самых дорогие квартиры.
| District_ad | Address | Area_total | Area_living | Price | Longitude | Latitude |
|---|---|---|---|---|---|---|
| Петроградский | Константиновский пр., 23 | 135 | 85 | 450 | 30.26852 | 59.97331 |
| Петроградский | Крестовский пр. 15 | 456 | 251 | 450 | NA | NA |
| Приморский | Главная ул. | 600 | 130 | 560 | 30.29761 | 60.02282 |
| Приморский | Лисий Нос, Приморское шоссе, 412 | 268 | 200 | 450 | 30.08760 | 59.99874 |
| Адмиралтейский | Конногвардейский бул., 13 | 243 | 130 | 600 | 30.29865 | 59.93394 |
Аренда квартиры в Петроградском и Адмиралтейском районах вполне могут стоить таких денег, потому что это престижные части города. Однако, квартиры в Приморском районе так дорого обыычно не стоят. Рассмотрев подробнее два этих наблюдения выясняется, что адреса Приморское шоссе 412 в Лисем Носу вообще нет. По координатам квартиры с Главной улицы за 450 тыс.руб в месяц раньше находился гаражный кооператив, который на данный момент снесен. Квартиры с общей площадью 600 кв.м из которых 130 кв.м - жилые, там быть явно не могло. Удалим эти 2 наблюдения как ошибочные.
Рассмотрим минимальные цены на квартиры:| Date_entry | District_ad | Dist_metro_ad | Area_total | Area_living | Price |
|---|---|---|---|---|---|
| 2016-12-20 | Пушкинский | 1230 | 33 | 18 | 0.016 |
| 2017-01-15 | Гатчинский | 1450 | 44 | 22 | 0.020 |
| 2017-02-27 | Адмиралтейский | 590 | 50 | 24 | 0.025 |
| 2017-02-28 | Калининский | 3160 | 62 | 39 | 0.030 |
| 2016-04-24 | Московский | 430 | 35 | 15 | 1.500 |
| 2016-06-16 | Всеволожский | 430 | 42 | 20 | 1.800 |
| 2016-05-05 | Невский | 770 | 48 | 32 | 2.000 |
| 2016-05-06 | Фрунзенский | 1120 | 47 | 30 | 2.500 |
| 2016-01-07 | Центральный | 640 | 54 | 32 | 4.000 |
| 2016-03-24 | Адмиралтейский | 250 | 75 | 41 | 6.000 |
| 2016-07-25 | Выборгский | 10960 | 36 | 18 | 6.000 |
| 2017-05-24 | Василеостровский | 580 | 90 | 13 | 8.000 |
Есть несколько квартир, стоимость аренды которых в месяц меньше 10 тыс.руб/мес. Даже в 2016 году вряд ли в Петербурге были квартиры с такой площадью за столь малые деньги. Поэтому мы удалим данные наблюдения как ошибочные
| Metro | District_ad | Address | Dist_metro_ad |
|---|---|---|---|
| Ветеранов пр. | Петродворцовый | р-н Ломоносов г. Красного Флота ул., 23к1 | 27300 |
| Автово | Петродворцовый | р-н Ломоносов г., Ораниенбаумский пр., 43к1 | 27460 |
| Просвещения пр. | Всеволожский | р-н Лесное пос. | 37630 |
| Восстания пл. | Кировский | р-н Мга пос. Мгинской правды ул. | 44100 |
Проверив расстояние до ближайшей станции метро в яндекс картах, можно убедиться, что эти расстояния не ошибочны.
Теперь рассмотрим самые близкие к метро квартиры.
| District_ad | Address | Dist_metro_ad |
|---|---|---|
| Центральный | Большая Конюшенная ул. | 0 |
| Московский | Московский пр., 139к2 | 0 |
| Выборгский | Лесной пр., 15 | 0 |
| Центральный | Кременчугская ул., 13 | 0 |
Есть несколько наблюдений, в которых расстояние до метро равно нулю. Такого, конечно же, быть не может, поэтому мы удалим эти наблюдения как ошибочные.
Тут стоит отметить, что все люди пытаются сдать свои квартиры как можно быстрее и как можно дороже, поэтому, чтобы выделить свою квартиру среди остальных, люди идут на некоторые ухищрения. Например, занижают расстояние до ближайшей станции метро. В наших данных также наблюдается такая тенденция, поэтому к использованию данных о расстоянии до метро нужно подходить внимательно.
Максимальное значение минимального срока аренды квартир в 3 раза больше 3 квартиля, то есть распределение сильно скошено вправо. Проверим наблюдения с большим минимальным сроком аренды.
В нашей выборке существуют люди, которые хотят сдать квартиру минимум на 31 месяц и минимум на 14 месяцев, но при этом нет людей, которые хотели бы сдать квартиры, например, на 20 месяцев. Тем не менее, мы не будем удалять наблюдения с минимальным сроком аренды в 31 месяц, потому что возможно, что в нашу выборку не попали наблюдения, срок минимальный срок аренды которых находится между 14 и 31 месяцами.
Наблюдения с маленьким минимальным сроком аренды мы не будем рассматривать как ошибочные, т.к. люди вполне могут хотеть сдать квартиру хоть на какой-то срок(даже 1 месяц).
Куртозис данных очень большой, а также максимальное значение сильно больше 3 квартиля, скорее всего в данных имеется либо выброс, либо ошибка. Проверим квартиру с самой большой общей площадью.
| Address | Rooms | Price | Area_living | Area_kitchen | Area_total |
|---|---|---|---|---|---|
| Гатчинская ул., 8 | 2 | 23 | 22 | 7 | 23000 |
В квартире 2 комнаты и жилая площадь всего 22 кв. метров, но при этом общая площадь 23 000 кв.метров. Такая площадь ошибочна, так что мы удалим данное наблюдение
| Address | Rooms | Price | Area_living | Area_kitchen | Area_total |
|---|---|---|---|---|---|
| Троицкий пр., 16 | 1 | 35 | 12.0 | 4.0 | 22 |
| Кузнецовская ул., 11 | 0 | 22 | 13.6 | 5.3 | 23 |
| Лизы Чайкиной ул., 10 | NA | 20 | 12.0 | 2.0 | 16 |
| Address | Rooms | Price | Area_total | Area_kitchen | Area_living |
|---|---|---|---|---|---|
| Крестовский пр. 15 | 8 | 450 | 456 | 62 | 251 |
| Беринга ул., 27к1 | 5 | 155 | 245 | 1 | 200 |
| Кирочная ул., 6 | 7 | 220 | 304 | 31 | 212 |
| Лисий Нос, Приморское шоссе, 412 | 6 | 450 | 268 | 15 | 200 |
| Луначарского пр., 15к1 | 9 | 200 | 500 | 40 | 200 |
Данные квартиры стоят дорого, в них много комнат, следовательно и жилая площадь большая, так что скорее всего эти наблюдения не ошибочны.
| Address | Rooms | Price | Area_total | Area_kitchen | Area_living |
|---|---|---|---|---|---|
| Грибоедова кан. наб., 174 | 1 | 35 | 25 | 8 | 10 |
| Брянцева ул. 7к.1 | 1 | 25 | 40 | 10 | 10 |
| Чудновского ул., 6к2 | 2 | 24 | 52 | 10 | 2 |
| Лыжный пер., 4к3 | 1 | 30 | 40 | 18 | 10 |
| Парголово, Николая Рубцова ул., 9 | 1 | 22 | 32 | 11 | 10 |
В наблюдениях с минимальной жилой площадью на наш взгляд также нет ошибки. Квартира с 2 кв. метрами жилой площади безусловно является нетипичной для нашей выборке, однако судить наверняка об ошибочности данного наблюдения мы не может
| Address | Rooms | Price | Area_living | Area_total | Area_kitchen |
|---|---|---|---|---|---|
| Морской пр., 15 | 2 | 140 | 38 | 140 | 65 |
| Литейный пр., 57А | 3 | 300 | 120 | 200 | 80 |
| р-н Репино пос. Приморское шоссе, 424 | 3 | 350 | 57 | 145 | 65 |
| Чайковского ул. 38 | 5 | 280 | 190 | 307 | 80 |
| Литейный пр., 51 | 3 | 70 | 41 | 123 | 78 |
Квартиры стоят дорого, общая площадь в них большая, поэтому мы не будем удалять эти наблюдения как ошибочные.
| Среднее | Медиана | Мода | Квартиль1 | Квартиль3 | Станд.отклон. | Размах | Минимум | Максимум | Куртозис | Ассиметрия | |
|---|---|---|---|---|---|---|---|---|---|---|---|
| Цена | 43.00 | 30.0 | 20.0 | 22.0 | 48.0 | 40.700 | 590.000 | 10.0 | 600.0 | 37.40 | 4.560 |
| Дист. до метро, м | 1438.00 | 790.0 | 50.0 | 318.0 | 1520.0 | 2714.000 | 44090.000 | 10.0 | 44100.0 | 67.80 | 6.750 |
| Мин. срок аренды | 10.60 | 11.0 | 11.0 | 11.0 | 11.0 | 3.460 | 30.000 | 1.0 | 31.0 | 20.00 | 1.880 |
| Общ. площ. | 61.50 | 50.0 | 40.0 | 40.0 | 70.0 | 36.200 | 484.000 | 16.0 | 500.0 | 25.20 | 3.400 |
| Жил. площ. | 34.50 | 30.0 | 18.0 | 18.0 | 40.0 | 22.600 | 241.000 | 10.0 | 251.0 | 15.30 | 2.690 |
| Площ. кухн. | 11.60 | 10.0 | 10.0 | 8.0 | 13.0 | 6.710 | 79.000 | 1.0 | 80.0 | 23.20 | 3.440 |
| Кол-во этажей в доме | 6.58 | 5.0 | 3.0 | 3.0 | 9.0 | 4.810 | 25.000 | 1.0 | 26.0 | 4.53 | 1.340 |
| Номер этажа | 11.80 | 10.0 | 5.0 | 6.0 | 16.0 | 6.550 | 28.000 | 2.0 | 30.0 | 2.45 | 0.725 |
| Широта | 59.90 | 59.9 | 59.9 | 59.9 | 60.0 | 0.066 | 0.365 | 59.7 | 60.1 | 2.11 | -0.048 |
| Долгота | 30.30 | 30.3 | 30.3 | 30.3 | 30.4 | 0.078 | 0.539 | 30.1 | 30.6 | 2.82 | 0.037 |
| Год постройки дома | 2000.00 | 2010.0 | 2015.0 | 2000.0 | 2015.0 | 25.600 | 185.000 | 1832.0 | 2017.0 | 15.90 | -3.110 |
Видно, что все большинство величин скошенны вправо(ассиметрия>0). Это объясняется природой данных: все величины у нас положительны, большинство значений близки к левой границе распределения, но при этом существует несколько наблюдений, сильно выбивающихся из общей тенденции, то есть наблюдений, смещенных к правой части распределения(слишком дорогие/большие квартиры, слишком отдаленные от метро, слишком высокоэтажные дома).
Данные, не следующие этой логике:
1. Широта и долгота. Они не являются сильно скошенными в ту или иную сторону. Это означает то, что в среднем все квартиры симметрично распределены вокруг условного “центра”(то есть среднего) широты(и долготы соответственно).
2. Год постройки - данные скорее ограничены справа, чем слева. Т.к. домов, построенных позже текущего момента не существует, в среднем все дома относительно новые, но при этом существует несколько очень старых домов, поэтому распределение скошено влево.
Из графика видно, что абсолютное большинство квартир расположено в Санкт-Петербурге. Скорее всего это связано с тем, что плотность жилья в Санкт-Петербурге гораздо выше, чем в регионе. Также в городе гораздо больше людей, желающих сдать квартиру.
Самыми популярными районами для сдачи квартиры являются: Московский, Центральный, Приморский. А наименее популярными: Петродворцовый, Курортный, Колпинский, Ломоновский (вероятно, в виду их удаленности от центра)
Самыми популярными станциями метро являются: Приморская, Комендантский проспект, Московская, Ленинский проспект. А наименее популярными Шушары, Пушкинская, Павловск, Лаврики, Колпино, Волковская. Такое распределение легко объясняется спецификой распределения квартир по районам: наиболее часто встречающиеся станции - те, что находятся в районах с самым большим количеством квартир - Московском, Центральном, Приморском.
На графике видна явная тенденция: число наблюдений уменьшается с ростом числа комнат. Это кажется вполне разумным: чем больше комнат в квартире, тем она дороже. Следовательно, у меньшего числа людей в собственности есть такая квартира (особенно для сдачи в аренду). Эта тенденция нарушается лишь квартирами студиями. Полагаем, что это возникает из-за того, что не все арендодатели прописывают в объявлении тип однокомнатной квартиры.
Большинство квартир сдаются с посредником. Это может быть объяснено желанием арендодателей обезопасить себя, избавиться от лишних хлопот.
Большая часть зданий, в которых расположены квартиры сделаны либо из кирпича, либо из монолитного кирпича. Полагаем, что это происходит из-за особенностей жилового фонда Санкт-Петербурга.
В большинстве домов (примерно 60%), в которых сдаются квартиры, есть лифт. Это может быть связано с тем, что в выборке присутствует множество квартир либо из домов малой этажности, либо из старых домов, в которых лифтов нет
В большей части объявлений либо написано о типе установленной мебели, либо нет никаких данных о мебели. На наш взгляд это может быть связано с тем, что люди не хотят отпугнуть потенциальных арендаторов отсутствием мебели в своей квартире.
Половина всех объявлений не содержит никаких данных о типе ванной комнаты. Следующий по популярности вариант - “Отдельная”. Предполагаем, что авторы объявлений либо указывают преимущество квартиры в виде раздельной ванной комнаты, либо не указывают вообще ничего, чтобы не отпугнуть потенциальных арендаторов.
Полагаем, что ситуация аналогична ситуации с ванной комнатой. Арендодатели либо указывают преимущество в виде евроремонта (или ремонта как такового), либо не указывают ничего (“нет данных”). Мотивация тут такая же, как и с указыванием типа ванной комнаты и наличия мебели - арендодатели не хотят отпугнуть арендаторов.
В большинстве объявлений отсутствует информация о балконе. Следующий по популярности идет вариант о его наличии, за ним - о наличии лоджии, при этом очень мало объявлений с эркерами и большим количеством балконов/лоджий. Мы считаем, что это напрямую связано с особенностями жилья в Санкт-Петербурге. Для Петербурского жилья характерно наличие лишь одного балкона/лоджии.
На данном графике максимальное расстояние до метро ограничено 20 000 метров, это сделано для лучше йвизуализации. Тажке существует несколько наблюдений, которые выходят за данную границу - они расположены в Ленинградской области.
Распределение сильно скошено вправо. При этом в среднем квартиры расположены на ~2км. от метро. Это объясняется тем, что площадь застройки(в том числе жилой) вокруг метро обычно высокая.
Распределение скошено вправо. Это происходит из-за того, что существует несколько квартир, цена аренды которых крайне высока. Однако цена аренды большинства квартир варируется от 20 до 50 тысяч рублей. Среднее - 43 тысячи рублей, медиана - 30 тысяч рублей.
Как видно из графика - большинство людей хотят сдать свою квартиру минимум на год. Также есть люди, которые хотят сдать квартиру на 6 или на 1 месяц минимум. Такие красивые даты могут быть объяснены психологическими причинами. Многие люди не хотят сдавать свою квартиру на несколько дней, но при этом боятся спугнуть арендаторов слишком большим сроком и поэтому ставят 1 месяц. Кто-то хочет сдать квартиру на длительный срок, но при этом также боится спугнуть покупателей и ставит 6 месяцев, вместо 12. При этом многие люди все равно сдают свою квартиру минимум на год. Таже существует несколько объявлений, в которых минимальный срок аренды указан равным 31 месяцам. Возможно, люди уезжают куда-то на длительный срок и поэтому хотят сдать свою недвижимость сразу на длительный период.
На графиках выше видно, что данные распределения скошены вправо. При этом на гистограммах существуют “провалы”, скорее всего это происходит из-за конструктивных особенностей квартир, т.к. застройка в своем большинстве типовая, поэтому некоторые интревалы площадей отсутствуют в выборке.
Распределение количества этажей в доме скошено вправо и имеет множество пиков. Плотность вероятности уменьшается с увеличением количества этажей. Это, в целом, свидетельствует о том, что квартиры сдают в разных домах, с небольшим преобладанием малоэтажных. Множество пиков обусловлено спецификой архитектуры Петербурга, в застройке которого существует много домов определенной высоты (например, четырех-, пяти-, десяти-, пятнадцати- этажных) и мало - другой высоты (например, семи-, двенадцати- этажных).
Распределение этажей, на которых расположена съемная квартира сосредоточено вокруг пятого этажа и, в целом, скошено вправо. Однако у него очень “толстые” хвосты, что свидетельствует о том, что квартиры могут находится и на больших этажах.
Координаты долготы распределены почти нормально. Это связано с тем, что большая часть квартир расположена вокруг условного центра(то есть средней долготы). При этом в распределении широты есть некоторые провалы. Скорее всего это происходит из-за особенностей ландшафта Санкт-Петербурга и Ленинградской области. Вероятно, что в “провалах” широты расположены промзоны, реки или какие-то другие площади с отсутствующей жилой застройкой.
Распределение сосредоточено вокруг 2015 года, сильно скошено влево и имеет “толстый” хвост. По графику видно, что большинство домов, в которых сдаются квартиры, были построены в двухтысячных. Также в данных присутствует небольшая часть домов, построенных в период 1950 - 2000 годов. Такой вид распределения может быть объяснен “бумом” развития пригородов Санкт-Петербурга: строительством множества домов в так называемых “спальных окраинах”: Мурино, Девяткино, Кудрово и других.
Как мы видим из ниже приведенных графиков, в среднем, цена в городе выше, чем цена в области. Это видно как из сравненя медиан, так и расположения основных 50% данных, располагающихся между 25-м и 75-м квантилями. При этом разброс данных больше в городе, как с большими, так и с меньшими значениями. Высокий разброс связан с тем, что в городе предлагается больше квартир в аренду. При этом, в городе больше значений, не входящих в статистически значимую часть выборки, так как в городе более высокий уровень жизни, из-за чего на рынке предлагается больше дорогих и больших квартир.
Относительно районов можно выделить следующие закономерности. Самыми дорогими районами являются Петроградский и Василеостровский из-за близости исторического центра и наличия многих жилых комплексов класса Комфорт и выше, Центральный и Адмиралтейский из-за близости исторического центра. Самыми дешевыми являются Ломоносовский и Петродворцовый за счет дальности от центра города. В остальных районах распределение цены за квадратный метр примерно одинаковое. При этом из графика по стоимости аренды видно, что распределение Курортного района выше обычного распределения, так как там много сдаваемых дачных участков и больших жилых комплексов для всей семьи для отдыха на природе, а Всеволожский и Колпинский имеют распределение ниже, так как это не самые процветающие районы, поэтому там находятся в основном маленькие квартиры, ибо другое малообеспеченное население позволить себе не может.
Из анализа станций метро видно, что самые дорогие квартиры сдаются около Крестовского острова, Маяковской, Петроградской и Чкаловской, так как в этих округах находятся элитные жилые кварталы, которые дорого стоят. Из графика по цене за квадратный метр можно понять, в каких округах низкая цена жилья. Но часто меньшее распределение объясняется тем, что по данной станции метро слишком мало значений, как в случае с Бухарестской. Также можно выделить дорогие станции метро как площадь Александра Невского, Адмиралтейская, Выборгская, Горьковская и Черная речка (и др.), вокруг которых много жилых комплексов класса не меньше, чем “Бизнес”. Их медианы цен за квадратный метр, как и сами ящики, лежат выше, чем у других районов. При этом на графике от стоимости аренды их отрыв от остальных районов увеличивается за счет большего предложения больших квартир, которых в этих округах больше из-за более высокого уровня жизни.
Как мы видим из графика по цене за квадратный метр, участие агента увеличивает вероятность более высокой цены, на что указывает граница 75-го квантиля. Возможно, также, это объясняется тем, что агента могут позволить себе помимо прочих обеспеченные люди, которые продают изначально дорогие квартиры. Такие люди и могут поднимать границу 75-го квантиля. А в остальном распрделение цены за квадратный метр крайне похоже для обеих категорий. Если мы посмотрим на график стоимости аренды, то заметим, что нижняя граница усов меньше у сделок с агентом. Мое предположение, что это происходит из-за людей, которые сдают маленькие студии, которые сейчас в ходу, и хотят на этом заработать, поэтому для уменьшения рисков прибегают к помощи агентов. Маленькие студии суммарно стоят меньше, поэтому и сдвигают нижнюю границу усов.
Если посмотреть на график цены за квадратный метр, то можно заметить, что основное скопление значений для каждого типа лежит в одном и том же общем промежутке, что говорит о том, что данная переменная не представляет особого значения для цены. Даже значения, которые имеют длинные усы за счет большего количества и разброса наблюдений, имеют ящик, лежащий в том же промежутке, что и у менее популярных типов. Заметим, что более популярные типы являются самыми универсальными, как Кирпич или Монолит, вероятно, так как соответствие типа здания им легче определить. При этом, стоимость аренды так сильно разнится из-за неравенства распределения размера квартир по типам здания. У более популярных и универсальных типов больше расброс по размеру квартир, поэтому и стоимость у них часто будет больше, что показывает более высокое положение ящика с усами.
Удивительно, но распределения как и по стоимости аренды, так и по цене за квадратный метр попарно одинаковы для квартир с лифтов в доме, так и квартир без лифта в доме. Я не представляю, почему так происходит. Допустим, что лифт есть во многих многоэтажках, которые в основном строятся для среднего и низшего класса, а квартиры без лифта еть в основном маленьких домах для людей с высоким доходом. некие аналоги таунхауса. Тогда можно предположить, что из-за надбавки за лифт у квартир в многоэтажных домах распределение квартир с лифтом приближается к более дорогим квартирам без лифта в доме. Или же люди просто не обращают внимание на этот пункт при выборе квартиры.
Здесь мы наблюдаем ситуацию, аналогичную с предыдущей парой. Распределение не меняется от перехода к другому типу. Вероятно, это так же определяется тем, что арендующие мало внимания уделяют выбору мебели. Но заметим, что более продвинутые типы мебели как Сборная Современная или Сборная + Кухонный гарнитур имеют более высокое по значениям распределение, хотя отличается от других оно не намного. Поэтому можно предположить, что мебелированность очень слабо влияет на цену.
По ванным комнатам ситуация так же похожа на ситуацию с мебелью, где распределение и расположение медиан и ящиков примерно одинаковое для каждого типа. Длина усов определяется только популярностью типа, которая определяется универсальностью типа. Арендодатели мало представляют, чем попереченая ванна отличается от продольной. Им понятнее категории Душ, Отдельная и Совмещенная, поэтому среди них больше наблюдений. Вероятно, такая же ситуация и у арендаторов, так как им важнее наличие ванной, чем её тип, в котором они не всегда разбираются. Исходя из схожести основных параметров выборочных распределений можно сказать, что наличие ванной так же не сильно влияет а цену.
Из этих графиков мы видим, что в большинстве домов/квартир сделан ремонт и распределение цен и стоимости в домах с выполненным ремонтом выше, чем у домов/квартир с невыполненным ремонтом. Что интересно, у квартир с указанным фактом ремонтом распределение цены и стоимости выше, чем при указании, что ремонт не требуется. Вероятно, факт совершения ремонта говорит об улучшенных характеристиках квартиры и её большей современности, так как во время ремонта она обновилась с использованием современных средств и технологий.
Замтеим, что распределение по цене одинаково у типов балкона, которые не включают дополнений и у типов балкона с дополнениями или большим количеством объектов типа балкона, при этом у вторых распределение выше. При этом, если мы посмотрим на график от стоимости, то заметим, что второй класс находится ещё выше. На наш взгляд, это происходит так из-за того, что такие продвинутые типы в основном встречаются в больших и дорогих элитных квартирах с изначально большей наценкой и площадью. И объяснение находится не в балконе, а в том, в каких квартирах он находится. Исходя из того, что внутри этих классов распределение примерно одинаковое, то для покупателя важен лишь факт наличия балкона скорее, чем его тип.Поэтому, нам кажется, что этот показатель, исходя из выше сказанного, мало влияет на стоимость квартиры.
Из данных крайне похожих графиков можно заметить, что с уменьшением расстояния увеличивается плотность распределения наблюдений. То есть, предложение квартир обратно пропорционально расстоянию до метро. То есть, основное предложение сосредоточено вблизи метро, так как на него самый большой спрос. Возможно, люди специально покупают квартиры у метро, чтобы сдавать их в аренду и зарабатывать на этом. При этом, если мы отметим, что разброс цены, как и условное среднее увеличивается при уменьшении расстояния до метро, что означает, что более дорогие квартиры сосредотачиваются у метро (возможно, как раз из-за большого спроса), поэтому цена и стоимость зависят от расстояния до метро и стратегия осознанной сдачи в аренду ещё больше оправдана.
Мы думаем, что тут много говорить не надо. Мы видим крайне логичную зависимость стоимости квартиры от общей площади, так как стоимость можно представить как цену за квадратный метр на метраж квартиры. А зависимость цены от общей площади практически отсутствует, так как цена за квадратный метр определяется качественными характеристиками квартиры нежели, чем метражом, например, благополучностью района. Площадь ничего не говорит о качестве квартиры. Поэтому не влияет на цену за квадратный метр.
У жилой площади почти такое же совместное распределение с ценой и зависимость, так как большая часть общей площади - это жилая площадь, поэтому для неё наблюдаются те же выводы, что и для общей площади.
У площади кухни уже намного слабее выражаются зависимости общей и жилой площадей. Для кухни больше похоже на то, что она не влияет на стоимость аренды, как минимум с какого-то порогового значения (например, 15 м2). Нам кажется, что кухня, во-первых, составляет малую часть от общей площади, поэтому слабо влияет на стоимость. Во-вторых, сейчас людям не сильно важен размер кухни, так как большую часть времени они проводят в других комнатах, а кухня нужна только для приготовления пищи. Даже для еды обычно сейчас используют и выделяют другие комнаты. Кроме того, по мере развития сервисов доставки еды надобность в самостоятельном приготовлении пищи отпадает и нужда в кухне уменьшается. Поэтому люди не меньше готовы доплачивать как за наличие кухни, так и за ее размер.
Исходя из этих графиков заметны основные округленные сроки договора аренды - 1 месяц, полгода, год и почему-то 32 месяца. Заметим, что распределение для полугода незначительно, но выше, чем для месяца, так как месяц можно рассматривать как пробный период, на который делается дисконт. Также сдача на месяц возможно обоснована внезапной надобностью сдать квартиру, а не размеренным решением намеренно и долгосрочно сдавать квартиру. Поэтому чтобы решить текущую проблему со сдачей квартиры, арендодатель предлагает меньшую стоимость, чтобы её побыстрее арендовали. Далее с увеличением срока аренды цена и стоимость увеличиваются. Так как чем меньше срок, тем больше возможностей у арендодателя сменить арендующего и избавиться от предыдующего арендатора. И это льгота компенисируется меньшей ценой. С увеличением срока начинает действовать другой эффект, что арендатор не может легко отказаться от аренды и сменить квартиру, так как скован условиями договора. Поэтому с увеличением времени стоимость уменьшается, что и видно при переходе от года к 32 месяцам. Поэтому минимальный срок аренды влияет на цену.
Ну тут говорить нечего. С увеличением года постройки помимо увеличения предложения из-за постоянного роста рынка строительства. Также после 2000 года с увеличением года строительства начинается увеличиваться цена за квадратный метр, так как на рынок вошли новые продвинутые технологии, которые позволили строить более качественные дома и лучше оборудовать квартиры. Также более молодые дома более стойкие, прочные и несут меньше рисков нежели, чем более старые, как возможность протекания или ухудшения внутренней облицовки. Поэтому год строительства прямым образом должен влиять на цену.
Мы видим, что большинство наблюдений сконцентрировано на этажах меньше десятого. На этих этажах Так же более широкое распределение, его размах больше, чем на более высоких. Это, на наш взгляд, связано с тем, что в Петербурге была долгое время малоэатажная застройка, особенно в близких к метро и историческому центру районах, что влияет на цену и стоимость. Поэтому сам этаж расположения не влияет на цену.
Аналогичная ситуация и с количеством этажей в доме. График и совместное распределение крайне напоминают свои аналоги в номере этажа. Из-за ограниченности домодерновой малоэтажной постройки большинство квартир в городе сосредоточены на низких этажах, а причины, по которым на этих низких этажах более высокая стоимость мы пояснили выше. Поэтому само количество этажей не влияет на цену.
Заметим, что с увеличением количества комнат увеличивается цена за метр, хоть и ненамного. Это связано с тем, что дополнительные комнаты дают новые возможности функционального и тематического заполнения пространства. Также, они дают личное пространство для дополнительных членов семьи, что и обеспечивает их надабвку. Цена за метр студии при этом выше, чем за однокомнатную и двукомнатную квартиру, так как сейчас студии пользуются повышенным спросом, а также они в меньшем пространстве совмещают все возможности, функции, технологии и удобства более многокомнатных квартир. Также различие в стоиомсти растет ещё сильнее, так как, помимо всего, с увеличением числа комнат обычно (в среднем) увеличивается площадь квартиры, которая прямым образом влияет на стоимость.
Для рассмотрения корреляций я не брал адреса, так как там все значения почти уникальные и не несут особого смысла, а так же широту и долготу, так как эти величины эквивалентны адресу. А все перечисленные величины и так содержатся эксплицитно в Станции метро и Районе.
Во всех последующих таблицах зачеркнуты значения, чей уровень значимости больше 0.05. Они считаются несущественными.
Матрица нам лает результаты, которые мы уже упоминали. Цена и Стоимость сильно зависят от Общей и Жилой площадей. А площади сильно зависят друг от друга, что неудивительно, так как одна из величин включается в другую.
Ещё заметно, что сильно коррелируют друг с другом количество этажей, номер этажа и год постройки, что опять же связано с тем, какой был тип застройки в Петербурге.
У остальных пар корреляция слабая (меньше 0.25 по модулю), поэтому, на наш взгляд, она не заслуживает рассмотрения.
Да, относительно числовых параметров это делать не совсем уместно, хотя их тоже можно представить в виде ординальных величин. Тем не менее, корреляция Спирмена не изменяла порядок вещей в нашей матрице. Наиболее значительными связями все так же являются связь Цены, Стоимости и Площадей, а также Года постройки и Этажей. Остальные корреляции слишком малы по модулю, чтобы их рассматривать.
Стоит заметить, что стала отчетливо видна отрицательная зависимость Цены и Стоимости от Дистанции до метро, которую мы и предполагали.
Тем не менее, обратим на связь числовых параметров с Количеством комнат, нашим единственным ординальным параметром. Они плотно связаны с Площадьми дома, что мы уже объясняли в предыдущем разделе, а также с Ценой и Стоимостью аренды, что мы также объясняли в предыдущем разделе. Ну и банально, со Стоимостью Количество комнат связано через зависимость от Площадей, которые сильно влияют на Стоимость.
Матрица основана на скорректированном коэффициенте сопряженности Пирсона.
Из этой интереснейшей матрицы мы видим, что почти все зависимости Цены от номинальных признаков малы и недостаточно значительны. Только с Метро есть положительная зависимость, которую мы и предполагали, и пытались объяснить. Возможно, это, как мы и упоминали, объясняется тем, что арендаторам не важен часто конкретный тип обустроенности квартиры, а просто наличие определенных параметров. Балкон и лифт, как мы и предполагали, слабо влияют на цену.
Но далее самое настоящее веселье. Почти все признаки коррелируют друг с другом. Заметим, что большинство признаков связано с обустройством дома. Поэтому их было бы логично рассматривать комплексно. Итак, с развитием технологий и прогрессом увеличивается качество домов, увеличивается их сложность. Чем позже построен дом, тем лучшего качества он будет, тем лучше он будет оборудован, тем больше шансов, что он будет с усложненными и насыщенными по фактуре квартирами. Поэтому это влияет положительно на Тип здания, наличие лифта, меблированность, тип ванной, состояние ремонта и балкон. Первопричиной предыдущих выводов может стать связь всех признаков с классом комплекса. Не составляет труда представить себе, что чем выше класс комплекса, тем лучше там будут проработаны все составляющие, поэтому они одновременно будут улучшаться по мере увеличения класса.
Метро положительно связано с другими параметрами, так как, как мы уже знаем, ближе к метро наиболее востребованные и дорогие квартиры, поэтому было бы логично, если бы рядом с метро строились самые разные, как и продвинутые жилые комплексы, которые хотели бы увеличить наценку на квартиры за счет расположения. Давайте не забывать, что у нас есть станции метро с условно дорогими ценами и условно не дорогими, как мы узнали в предыдущем разделе. Можно сказать, что есть элитные станции метро с жильем высокого класса вокруг и не самые элитные станции метро с невысоким классом жилья вокруг. А как мы знаем из предыдущего абзаца, более элитное жилье способствует более уютному и качественному обустройству дома.
Теперь давайте скажем про агентов. Как мы уже упоминали в предыдущем разделе, агентов скорее могут позволить себе обеспеченные люди, которые владеют уже крайне хорошими и благоустроенными квартирами, которые они и сдают. Также, мы говорили, что агентами могут пользоваться арендодатели востребованных студий, которые они обустраивают, чтобы выделяться на фоне конкурентов, предлагая лучшие условия и поднимая цену аренды. Это и объясняет положительную корреляцию.
Так как мы не разобрали адреса и географические координаты, то в качестве утешения мы предлагаем интерактивную карту расположения объявлений, которая прекрасно показывает расположение объявлений по городу и области.